Top des produits IA

Top des produits IA

Recherchez la dynamique mondiale des produits IA

Recherchez des informations sur l'IA mondiale et découvrez de nouvelles opportunités d'IA

Actualités
Applications de produits
Études de monétisation
Tutoriels IA

Type :

Actualités
Applications de produits
Études de monétisation
Tutoriels IA

2025-01-15 11:43:52.AIbase

OpenBMB publie le modèle multi-modal MiniCPM-o2.6 : traitement visuel et vocal possible même sur téléphone portable

Ces dernières années, l'intelligence artificielle a connu des progrès remarquables, mais des défis persistent quant à l'efficacité du calcul et à la polyvalence. De nombreux modèles multimodaux avancés, tels que GPT-4, nécessitent généralement d'importantes ressources de calcul, ce qui limite leur utilisation aux serveurs haut de gamme et empêche une utilisation efficace des technologies intelligentes sur les appareils périphériques tels que les smartphones et les tablettes. De plus, le traitement en temps réel de tâches telles que l'analyse vidéo ou la transcription vocale pose encore des obstacles techniques, soulignant le besoin de modèles IA efficaces et flexibles pour une utilisation transparente avec des ressources matérielles limitées.

OpenBMB publie le modèle multi-modal MiniCPM-o2.6 : traitement visuel et vocal possible même sur téléphone portable

2024-11-19 13:51:41.AIbase

L'équipe de l'Université de Pékin publie LLaVA-o1, un modèle multi-modal avec des capacités de raisonnement comparables à GPT-o1 !

Récemment, une équipe de recherche de l'Université de Pékin et d'autres institutions a annoncé la publication de LLaVA-o1, un modèle multi-modal open source. Il s'agirait du premier modèle langue-vision capable de raisonnement spontané et systématique, comparable à GPT-o1. Ce modèle a excellé dans six benchmarks multimodaux exigeants. Sa version à 11 milliards de paramètres a surpassé des concurrents tels que Gemini-1.5-pro, GPT-4o-mini et Llama-3.2-90B-Vision-Instruct. L

L'équipe de l'Université de Pékin publie LLaVA-o1, un modèle multi-modal avec des capacités de raisonnement comparables à GPT-o1 !

2024-10-25 11:16:59.AIbase

Salesforce AI Research présente le nouveau modèle multi-modal BLIP-3-Video : une solution économique pour la compréhension vidéo

Récemment, l'équipe de recherche Salesforce AI a lancé un nouveau modèle linguistique multi-modal : BLIP-3-Video. Avec l'augmentation rapide du contenu vidéo, la gestion efficace des données vidéo est devenue un problème urgent. Ce modèle vise à améliorer l'efficacité et les performances de la compréhension vidéo, et s'applique à divers secteurs, de la conduite autonome aux divertissements. Les modèles traditionnels de compréhension vidéo traitent généralement les vidéos image par image, générant une grande quantité d'informations visuelles. Ce processus non seulement consomme d'énormes ressources de calcul, mais limite également considérablement...

Salesforce AI Research présente le nouveau modèle multi-modal BLIP-3-Video : une solution économique pour la compréhension vidéo

2024-09-26 14:34:11.AIbase

Le modèle multi-modal open source Molmo identifie les objets sur les images et génère des descriptions précises

Récemment, un modèle d'intelligence artificielle multimodale open source nommé Molmo a suscité un vif intérêt dans l'industrie. Ce système d'IA, basé sur Qwen2-72B et utilisant le moteur de traitement visuel CLIP d'OpenAI, défie la domination des modèles commerciaux traditionnels grâce à ses performances exceptionnelles et ses fonctionnalités innovantes. La caractéristique la plus remarquable de Molmo est son efficacité. Bien que relativement petit, il rivalise en termes de capacité de traitement avec des concurrents dix fois plus volumineux. Ce concept de conception « petit mais puissant » améliore non seulement les performances du modèle, mais...

Le modèle multi-modal open source Molmo identifie les objets sur les images et génère des descriptions précises

2024-06-19 09:20:50.AIbase

Meta publie plusieurs modèles : le modèle multi-modal Chameleon, le modèle de génération de musique à partir de texte JASCO, la technique de filigrane audio AudioSeal, etc.

Meta a récemment publié discrètement six résultats de recherche, apportant de nouvelles applications et des percées technologiques au domaine de l'IA. Il s'agit notamment d'un modèle multi-modal, d'un modèle de génération de musique à partir de texte, d'une technique de filigrane audio et de plusieurs ensembles de données. Découvrons ensemble ces résultats de recherche.

Meta publie plusieurs modèles : le modèle multi-modal Chameleon, le modèle de génération de musique à partir de texte JASCO, la technique de filigrane audio AudioSeal, etc.

2024-01-31 10:12:49.AIbase

Le modèle multi-modal open source LLaVA-1.5 de Microsoft rivalise avec GPT-4V

Microsoft a publié en open source le modèle multi-modal LLaVA-1.5, qui hérite de l'architecture LLaVA et intègre de nouvelles fonctionnalités. Des tests effectués par les chercheurs sur la compréhension de questions visuelles, le traitement du langage naturel et la génération d'images montrent que LLaVA-1.5 atteint le niveau le plus élevé parmi les modèles open source.

2023-11-08 10:51:15.AIbase

Smoore Technology lance IndustryGPT V1.0, le premier grand modèle multi-modal industriel au monde

Smoore Technology lance IndustryGPT V1.0, le premier grand modèle multi-modal industriel au monde. Ce grand modèle peut répondre précisément aux questions du secteur manufacturier, identifier les défauts industriels et fournir un soutien à la décision. Des accords de coopération stratégique ont été signés avec des entreprises multinationales pour faire progresser ensemble l'industrie manufacturière mondiale vers l'ère intelligente. Le nouveau modèle lancé revêt une importance majeure pour la fabrication intelligente et l'innovation numérique. Le lancement de ce nouveau modèle apportera des innovations technologiques et du développement au secteur de la fabrication industrielle.

2023-11-06 09:28:37.AIbase

Le grand modèle multi-modal intelligent "Mianbi Luca" est officiellement ouvert au public

L'application de grand modèle multi-modal intelligent "Mianbi Luca" est officiellement ouverte au public. "Mianbi Luca" est un assistant de conversation intelligent multi-modal créé par Mianbi Intelligence basé sur le modèle de base CPM de plusieurs centaines de milliards de paramètres développé en interne. Luca possède des capacités de dialogue en chinois et en anglais, de codage, de connaissances, de logique et de compréhension d'images. Mianbi Intelligence intégrera davantage la technologie AI Agent à Luca pour exploiter le potentiel des applications de grands modèles. Mianbi Intelligence, l'Université Tsinghua et OpenBMB...